新旧|浆糊_强化学习从PG到PPO（基于百度飞桨PaddlePaddle+PARL）

作者：君哥哥 | 来源：互联网 | 2023-06-26 23:09

篇首语：本文由编程笔记#小编为大家整理，主要介绍了强化学习从PG到PPO（基于百度飞桨PaddlePaddle+PARL）相关的知识，希望对你有一定的参考价值。前段时间抽

篇首语：本文由编程笔记#小编为大家整理，主要介绍了强化学习从PG到PPO（基于百度飞桨PaddlePaddle+PARL）相关的知识，希望对你有一定的参考价值。

前段时间抽空学习了《百度强化学习基础课程》强化学习7日打卡营-世界冠军带你从零实践&＃xff0c;总共七天的视频&＃43;线上作业&＃xff08;视频地址&＃xff1a;世界冠军带你从零实践强化学习&＃xff09;&＃xff0c;让我这个小白基本对于强化学习有了简单的理解&＃xff0c;知识虽然是灌进脑袋里&＃xff0c;但仍是一团浆糊&＃xff0c;好记性不如烂笔头&＃xff0c;后续会多写笔记整理下自己的对于课程所学的理解、思考和发散&＃xff0c;今天先从最简单的PG算法开始&＃xff0c;然后到最近刚有了解的PPO算法。

PG算法原理

PG算法即是基于策略&＃xff08;Policy-based&＃xff09;&＃xff0c;不同于Value-based的算法的Q函数&＃xff0c;其是直接优化策略函函数&＃xff0c;在深度强化学习中&＃xff0c;其一般是采用神经网络拟合策略函数π(s,a)&＃xff0c;而优化的目标是策略函数的期望回报&＃xff0c;即所有策略路径同策略路径发生概率p的加权和&＃xff0c;当迭代次数足够的情况&＃xff0c;可以用所有迭代的策略路径回报的平均值来表示。

在paddle中使用PG是非常简单的&＃xff0c;通过如下调用PG算法

from parl.algorithms import PolicyGradient

然后可以用paddle创建一个简单的模型。

class Model(parl.Model): def __init__(self, act_dim): act_dim &＃61; act_dim hid1_size &＃61; act_dim * 10 self.fc1 &＃61; layers.fc(size&＃61;hid1_size, act&＃61;&＃39;tanh&＃39;) self.fc2 &＃61; layers.fc(size&＃61;act_dim, act&＃61;&＃39;softmax&＃39;) def forward(self, obs): # 可直接用 model &＃61; Model(5); model(obs)调用 out &＃61; self.fc1(obs) out &＃61; self.fc2(out) return out

之后定义Agent&＃xff0c;然后按如下就能完成PG框架的配置~

# 根据parl框架构建agent model &＃61; Model(act_dim&＃61;act_dim) alg &＃61; PolicyGradient(model, lr&＃61;LEARNING_RATE) agent &＃61; Agent(alg, obs_dim&＃61;obs_dim, act_dim&＃61;act_dim)

回到PPO的实现

PPO论文地址&＃xff1a;https://arxiv.org/abs/1707.06347

对于PG算法来说&＃xff0c;最大的问题是在策略参数更新后&＃xff0c;还要需要重新使用同环境互动收集数据再进行下一轮迭代&＃xff0c;PPO算法是利用了重要性采样的思想&＃xff0c;在不知道策略路径的概率p情况下&＃xff0c;通过模拟一个近似的q分布&＃xff0c;只要p同q分布不差得太远&＃xff0c;通过多轮迭代可以快速参数收敛。

如何去实现这个重要性采样呢&＃xff1f;PPO结合AC框架&＃xff0c; agent由两部分组成&＃xff0c;Actor负责与环境互动收集样本&＃xff0c;等同于原来PG的情况&＃xff0c;其更新即PPO梯度的更新&＃xff0c;添加了Critic&＃xff0c;负责评判actor的动作好坏&＃xff0c;实际上就是重要性采样了。

class Model(parl.Model): def __init__(self, act_dim): self.actor_model &＃61; ActorModel(act_dim) self.critic_model &＃61; CriticModel() def policy(self, obs): return self.actor_model.policy(obs) def value(self, obs, act): return self.critic_model.value(obs, act) def get_actor_params(self): return self.actor_model.parameters() class ActorModel(parl.Model): def __init__(self, act_dim): hid_size &＃61; 100 self.fc1 &＃61; layers.fc(size&＃61;hid_size, act&＃61;&＃39;relu&＃39;) self.fc2 &＃61; layers.fc(size&＃61;act_dim, act&＃61;&＃39;tanh&＃39;) def policy(self, obs): hid &＃61; self.fc1(obs) means &＃61; self.fc2(hid) return means class CriticModel(parl.Model): def __init__(self): hid_size &＃61; 100 self.fc1 &＃61; layers.fc(size&＃61;hid_size, act&＃61;&＃39;relu&＃39;) self.fc2 &＃61; layers.fc(size&＃61;1, act&＃61;None) def value(self, obs, act): concat &＃61; layers.concat([obs, act], axis&＃61;1) hid &＃61; self.fc1(concat) Q &＃61; self.fc2(hid) Q &＃61; layers.squeeze(Q, axes&＃61;[1]) return Q

完成了模型的设置&＃xff0c;在算法上重点在于如下两个模型的学习更新参数&＃xff08;在parl可以直接调用&＃xff09;

Actor模型优化的LOSS&＃xff0c;其中KL是参数是描述新旧π(s,a)的相似程度的散度

Critic模型优化的LOSS

具体代码如下&＃xff1a;

def Actor_learn(self, obs, actions, reward, beta&＃61;None): """ """ # 之前策略函数q old_means, old_logvars &＃61; self.old_policy_model.policy(obs) old_means.stop_gradient &＃61; True old_logvars.stop_gradient &＃61; True # 给定均值及方差&＃xff0c;计算actions的log概率函数 old_logprob &＃61; self._calc_logprob(actions, old_means, old_logvars) # 现在的策略函数p means, logvars &＃61; self.model.policy(obs) logprob &＃61; self._calc_logprob(actions, means, logvars) # 新旧策略函数p及q的KL散度 kl &＃61; self._calc_kl(means, logvars, old_means, old_logvars) kl &＃61; layers.reduce_mean(kl) # 以下对应于PPO参数更新LOSS loss1 &＃61; - layers.reduce_mean(reward * layers.exp(logprob - old_logprob)) loss2 &＃61; kl * beta loss &＃61; loss1 &＃43; loss2 optimizer &＃61; fluid.optimizer.AdamOptimizer(self.policy_lr) optimizer.minimize(loss) return loss, kl def Critic_learn(self, obs, val): """ """ predict_val &＃61; self.model.value(obs) # LOSS loss &＃61; layers.square_error_cost(predict_val, val) loss &＃61; layers.reduce_mean(loss) optimizer &＃61; fluid.optimizer.AdamOptimizer(self.value_lr) optimizer.minimize(loss) return loss

在运行时可以先用一个简单的环境跑下程序&＃xff0c;看看能否跑通&＃xff0c;训练时参数能否收敛~

from gridworld import FrozenLakeWapper env &＃61; gym.make("FrozenLake-v0", is_slippery&＃61;False) # 0 left, 1 down, 2 right, 3 up #env &＃61; gym.make("CliffWalking-v0") # 0 up, 1 right, 2 down, 3 left env &＃61; FrozenLakeWapper(env)

这里非常推荐大家使用parl例子的里gridword.py文件https://github.com/PaddlePaddle/PARL/blob/develop/examples/tutorials/lesson1/gridworld.py&＃xff0c;可以直接渲染出运行环境

最后再吹一拨parl&＃xff0c;其里面已经集群了算法和例子&＃xff0c;调用起来非常方便~&＃xff0c;另外还可以上百度飞桨平台https://aistudio.baidu.com/&＃xff0c;里面有许多深度学习的课程。

推荐阅读

go
基于TensorFlow的鸢尾花数据集神经网络模型深度解析

基于TensorFlow的鸢尾花数据集神经网络模型深度解析 ... [详细]

蜡笔小新 2024-10-22 11:56:51
go
探索学习曲线函数的深度解析与应用

探索学习曲线函数的深度解析与应用 ... [详细]

蜡笔小新 2024-10-22 19:28:26
go
华为200万年薪招聘AI应届生——有多少本事，给多少钱

据新浪科技报道，阿里AIlabs年薪百万美元引进两位科学家。除AI顶尖科学家外，华为也是为多位AI应届博士开出了200万的高价年薪。19年9月，各大互联招聘企业陆续发布2019年人 ... [详细]

蜡笔小新 2023-10-11 14:19:53
ip
学习提醒 | 如何训练RNN？解决梯度消失与梯度爆炸问题！

点击左上方蓝字关注我们今天就要进入RNN的终章，每日一问：它们如何运行？应用在哪里？你学完了吗？????顾名思 ... [详细]

蜡笔小新 2023-10-10 00:11:56
ip
PHP中元素的计量单位是什么？

PHP中元素的计量单位是什么？ ... [详细]

蜡笔小新 2024-11-01 15:06:51
ip
2019年后蚂蚁集团与拼多多面试经验详述与深度剖析

2019年后蚂蚁集团与拼多多面试经验详述与深度剖析 ... [详细]

蜡笔小新 2024-10-30 17:30:06
ip
深入解析 C# 中 SqlCommand 与 SqlDataAdapter 的核心差异与应用场景

本文深入探讨了 C# 中 `SqlCommand` 和 `SqlDataAdapter` 的核心差异及其应用场景。`SqlCommand` 主要用于执行单一的 SQL 命令，并通过 `DataReader` 获取结果，具有较高的执行效率，但灵活性较低。相比之下，`SqlDataAdapter` 则适用于复杂的数据操作，通过 `DataSet` 提供了更多的数据处理功能，如数据填充、更新和批量操作，更适合需要频繁数据交互的场景。 ... [详细]

蜡笔小新 2024-10-28 12:25:41
sum
利用GDAL库在Python中高效读取与处理栅格数据的详细指南

利用GDAL库在Python中高效读取与处理栅格数据的详细指南 ... [详细]

蜡笔小新 2024-10-28 11:31:30
default
在Java应用中实现只读模式的切换方法与技巧

在Java应用中实现只读模式的切换方法与技巧 ... [详细]

蜡笔小新 2024-10-27 19:40:35
ip
如何在DataGridView中实现带有图标的单元格显示

本文详细探讨了在C# WinForms应用程序中，如何通过DataGridView控件实现带有图标的单元格显示。文章不仅提供了具体的实现方法，还深入解析了相关技术细节，对于希望提升用户界面交互体验的开发者而言，具有很高的参考价值。 ... [详细]

蜡笔小新 2024-10-26 13:53:32
ip
2017年9月7日前端技术动态与资讯汇总

2017-09-07前端日报精选JavaScriptEventLoop机制详解与Vue.js中实践应用Redux基础与实践如何用js获取虚拟键盘高度？（ ... [详细]

蜡笔小新 2024-10-22 19:15:38
ip
深度学习分位数回归实现区间预测

深度学习分位数回归实现区间预测 ... [详细]

蜡笔小新 2024-10-19 11:37:08
ip
以赛促学，飞桨助力大学生智能车竞赛升级！

点击左上方蓝字关注我们第十六届智能汽车竞赛-百度人工智能创意赛道已经开启！比赛虽好，但同学们苦核心开发硬件久矣！百度飞桨作为大赛的赞助商之 ... [详细]

蜡笔小新 2023-10-11 13:22:52
ip
百度AI的2020

百度AI的2020-世界的2020，是充满不确定性的变局之年；中国的2020，是团结一心、共克时艰、于变局中开新局的希望之年；百度AI的2020，是坚定信念，拥抱变化，践行“科技为 ... [详细]

蜡笔小新 2023-10-10 21:47:29
ip
词表|句子_自然语言处理（NLP）基于序列到序列的中英机器翻译

篇首语：本文由编程笔记#小编为大家整理，主要介绍了自然语言处理（NLP）基于序列到序列的中-英机器翻译相关的知识，希望对你有一定的参考价值。【自然语言处理&#x ... [详细]

蜡笔小新 2023-10-10 10:04:54

君哥哥

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章